8.2 단일 인덱스 모델(Single-Index Model) 학습과 비선형 게이팅의 역할

0.1 서론: 인컨텍스트 러닝의 이론적 난제와 단일 인덱스 모델의 도입

2020년대 중반을 기점으로 거대 언어 모델(Large Language Models, LLMs)의 패러다임은 트랜스포머(Transformer)의 독주 체제에서 효율성을 강조한 상태 공간 모델(State Space Models, SSMs)과의 경쟁 체제로 전환되었다. 특히 Mamba 아키텍처는 선형 시간 복잡도(Linear Time Complexity)를 유지하면서도 트랜스포머에 필적하는, 혹은 특정 과업에서는 이를 능가하는 성능을 보여주며 ‘포스트 트랜스포머’ 시대의 선두 주자로 자리매김했다. 그러나 Mamba의 이러한 경험적 성공에도 불구하고, 그 내부에서 작동하는 학습 메커니즘—특히 가중치 업데이트 없이 문맥 내에서 새로운 과업을 수행하는 인컨텍스트 러닝(In-Context Learning, ICL)의 원리—에 대한 이론적 규명은 트랜스포머에 비해 상대적으로 미진했던 것이 사실이다.1

트랜스포머의 경우, 어텐션 메커니즘이 경사 하강법(Gradient Descent)의 한 단계를 근사(approximate)한다는 이론적 해석이 주류를 이루며 그 동작 원리가 어느 정도 파악되었다. 반면, 순환 신경망(RNN)의 진화형이자 연속적인 신호 처리에 뿌리를 둔 SSM, 그중에서도 선택적 상태 공간 모델(Selective SSM)인 Mamba가 어떻게 문맥 정보를 활용하여 즉각적으로 ’학습’하는지에 대한 질문은 여전히 베일에 싸여 있었다. 단순한 패턴 매칭인가, 아니면 더 고차원적인 특징 공간의 재구성인가? 이 질문에 답하기 위해 본 장에서는 고차원 통계 학습 이론의 핵심 도구인 단일 인덱스 모델(Single-Index Model, SIM) 을 분석의 틀로 도입한다.4

단일 인덱스 모델은 입력 데이터가 고차원 공간에 존재하더라도, 출력값은 알 수 없는 미지의 특징 벡터(feature vector)에 사영(projection)된 값의 비선형 변환으로 결정된다고 가정한다. 이는 현대 딥러닝 모델이 고차원 데이터 속에서 저차원의 내재적 구조(intrinsic structure)를 찾아내는 과정을 수학적으로 가장 정밀하게 모사하는 프레임워크로 평가받는다.6 우리가 주목하는 것은 Mamba가 이러한 SIM 구조를 문맥 내에서 학습할 수 있다는 사실 그 자체가 아니라, 그 과정에서 비선형 게이팅(Non-linear Gating) 이 수행하는 결정적인 역할이다.

기존의 선형 어텐션(Linear Attention) 모델들이 연산 효율성을 위해 비선형성을 제거하면서 표현력(Expressivity)의 한계, 즉 ’커널 체제(Kernel Regime)’에 갇혔던 것과 달리, Mamba는 게이팅 메커니즘을 통해 이러한 한계를 돌파한다. 본 절에서는 Mamba가 어떻게 선형 어텐션의 한계를 극복하고, 문맥 예제들로부터 과업에 관련된 특징(relevant features)을 직접 추출하여 학습하는 테스트 타임 특징 학습(Test-Time Feature Learning) 을 구현하는지를 심층적으로 분석한다. 우리는 Mamba의 비선형 게이팅이 단순한 정보의 흐름 제어를 넘어, 데이터의 유효성을 평가하고 아웃라이어를 억제하며, 결과적으로 모델이 최적의 통계적 학습 속도에 도달하게 하는 핵심 기제임을 수학적, 통계적 관점에서 논증할 것이다.5

0.2 단일 인덱스 모델(SIM)의 수학적 정의와 이론적 배경

Mamba의 학습 동역학을 분석하기 위해서는 먼저 분석의 대상이 되는 과업, 즉 단일 인덱스 모델의 구조를 엄밀하게 정의할 필요가 있다. 통계학 및 기계학습 이론에서 단일 인덱스 모델은 고차원 회귀 분석의 차원의 저주(Curse of Dimensionality)를 극복하기 위한 준모수적(semi-parametric) 모델로 오랫동안 연구되어 왔다.6

0.2.1 SIM의 기본 구조

$d$ 차원의 입력 벡터 $x \in \mathbb{R}^d$ 와 스칼라 출력 $y \in \mathbb{R}$ 사이의 관계가 다음과 같이 주어진다고 가정하자:
$y = g_*(\langle \beta, x \rangle) + \zeta$
여기서 각 구성 요소의 의미는 다음과 같다:

$\beta \in \mathbb{R}^d$ (Index Parameter): 모델이 학습해야 할 핵심 파라미터로, 미지의 특징 벡터(feature vector) 또는 인덱스 벡터이다. 본 분석에서는 $\beta$ 가 $r$ 차원 부분 공간 $S_r$ 의 단위 구면(unit sphere)에서 균등하게 추출된다고 가정한다. 이는 실제 데이터가 고차원( $d$ )이지만, 레이블을 결정하는 본질적인 정보는 저차원( $r \ll d$ ) 부분 공간에 존재함을 의미한다.5
$g_\*: \mathbb{R} \to \mathbb{R}$ (Link Function): 미지의 비선형 링크 함수이다. 일반적인 선형 회귀가 $g_*$ 를 항등 함수(identity function)로 가정하는 것과 달리, SIM은 $g_*$ 가 다항식(polynomial)이나 시그모이드(sigmoid)와 같은 비선형 함수일 수 있음을 허용한다. 이는 모델이 단순한 선형 결합 이상의 복잡한 관계를 학습해야 함을 시사한다.7
$x \sim \mathcal{N}(0, I_d)$ : 입력 데이터는 표준 정규 분포를 따른다고 가정한다. 이는 이론적 분석의 편의를 위한 것이지만, 최근 연구들은 이러한 가정이 구면 대칭(spherically symmetric) 분포 등으로 완화될 수 있음을 보이고 있다.5
$\zeta$ : 관측 오차를 나타내는 노이즈 항이다.

0.2.2 인컨텍스트 러닝(ICL) 시나리오에서의 SIM

전통적인 통계학에서는 고정된 데이터셋을 통해 $\beta$ 와 $g_*$ 를 추정하지만, ICL 설정에서는 모델이 ‘프롬프트(Prompt)’ 내에 주어진 제한된 예제들만으로 이들을 즉석에서 추정해야 한다. 프롬프트 $P$ 는 $N$ 개의 문맥 예제와 하나의 쿼리로 구성된다:
$P = \{(x_1, y_1), (x_2, y_2), \dots, (x_N, y_N), x_{query}\}$
Mamba 모델의 목표는 이 프롬프트를 순차적으로 처리하여, 마지막 쿼리 $x_{query}$ 에 대한 정답 $y_{query}$ 를 예측하는 것이다. 이때 모델은 사전에 $\beta$ 나 $g_*$ 에 대한 정보를 가지고 있지 않으며(사전 학습된 가중치에 고정되어 있지 않음), 오직 문맥 $(x_i, y_i)$ 쌍들 사이의 관계를 분석하여 암묵적으로 $\beta$ 를 찾아내고 $g_*$ 를 근사해야 한다. 이것이 바로 테스트 타임 특징 학습의 본질이다.5

이 과업이 중요한 이유는, 만약 Mamba가 SIM을 효과적으로 학습할 수 있다면, 이는 Mamba가 단순히 훈련 데이터에 있는 패턴을 기억해서 출력하는 것이 아니라, 새로운 데이터 분포의 기저에 있는 구조(structure) 를 파악하고 적응(adapt)할 수 있는 지능적 능력을 갖추었음을 증명하기 때문이다.

0.3 선형 어텐션의 한계: 커널 체제(Kernel Regime)의 덫

Mamba의 성취를 명확히 이해하기 위해서는 비교 대상인 선형 트랜스포머(Linear Transformer)가 왜 이 문제에서 한계를 보이는지 분석해야 한다. 선형 트랜스포머는 기존 트랜스포머의 $O(N^2)$ 복잡도를 해결하기 위해 소프트맥스(Softmax)를 제거하고 $K, V$ 의 곱을 먼저 계산하는 방식을 취한다. 그러나 이러한 구조적 변화는 모델의 학습 능력을 커널 회귀(Kernel Regression) 수준으로 제한하는 결과를 초래한다.5

0.3.1 커널 방법론으로서의 선형 어텐션

이론적 분석에 따르면, 선형 어텐션 메커니즘을 사용하는 모델이 인컨텍스트 러닝을 수행할 때, 그 예측값 $\hat{y}$ 는 훈련 예제들의 선형 결합으로 표현된다. 이는 수학적으로 커널 리지 회귀(Kernel Ridge Regression)와 동치이다.
$\hat{y}_{query} = \sum_{i=1}^{N} \alpha_i K(x_i, x_{query})$
여기서 커널 함수 $K(x, x')$ 는 모델의 임베딩 층에 의해 결정되는 고정된 특징 맵 $\phi(\cdot)$ 의 내적 $\langle \phi(x), \phi(x') \rangle$ 으로 정의된다. 커널 체제 하에서 모델은 입력 데이터를 고정된 고차원 공간으로 매핑한 후, 그 공간 내에서 선형적인 해를 찾는다.

문제는 SIM과 같이 타겟 함수가 입력의 특정 방향( $\beta$ )에 의존하는 비선형 함수일 때 발생한다. 커널 방법론은 데이터로부터 특징 표현 자체를 학습하는 것이 아니라, 미리 정의된 특징들의 조합만으로 문제를 해결하려 한다. 따라서 타겟 함수 $g_*$ 를 근사하기 위해서는 특징 맵의 차원이 매우 커져야 하며, 이는 차원의 저주로 이어진다. 구체적으로, 선형 트랜스포머가 $g_*$ 를 학습하기 위해 필요한 샘플 수(Sample Complexity)는 입력 차원 $d$ 와 링크 함수의 정보 지수(Information Exponent, $k$ ) 에 따라 $O(d^k)$ 로 급격히 증가한다.12

정보 지수(Information Exponent): 타겟 함수를 Hermite 다항식으로 전개했을 때, 계수가 0이 아닌 첫 번째 차수를 의미한다. 만약 $g_*$ 가 복잡한 고차 다항식의 성질을 가진다면, 선형 트랜스포머는 이를 학습하기 위해 비현실적으로 많은 문맥 예제를 필요로 하게 된다.14

결국 선형 트랜스포머는 계산 효율성을 얻는 대신, 데이터의 숨겨진 구조( $\beta$ )를 능동적으로 찾아내는 ‘특징 학습’ 능력을 상실하고, ‘게으른 학습(Lazy Learning)’ 혹은 커널 체제의 한계에 갇히게 된다. 이는 아웃라이어에 대한 취약성으로도 연결되는데, 선형 모델은 입력의 스케일에 민감하여 노이즈가 섞인 예제가 전체 예측을 크게 왜곡시킬 수 있기 때문이다.1

0.4 Mamba 아키텍처와 비선형 게이팅의 메커니즘

Mamba는 선형 트랜스포머와 유사한 순환적 구조를 가지면서도, 선택적 상태 공간 모델(Selective SSM) 이라는 독창적인 설계를 통해 커널 체제의 한계를 극복한다. 그 핵심에는 입력에 따라 동적으로 변하는 파라미터, 즉 비선형 게이팅(Non-linear Gating) 이 있다.

0.4.1 Mamba의 이산화(Discretization)와 게이팅 수식

Mamba의 연속 시간 상태 공간 모델은 다음과 같은 미분 방정식으로 표현된다:
$h'(t) = A h(t) + B x(t)$

$y(t) = C h(t)$

이를 이산 시간(discrete time)으로 변환하여 디지털 시퀀스 데이터를 처리하기 위해, Mamba는 Zero-Order Hold (ZOH) 방식을 사용하며, 이때 시간 간격(step size) $\Delta$ 가 핵심적인 게이팅 파라미터로 등장한다. Mamba의 차별점은 이 $\Delta$ 가 고정된 상수가 아니라, 입력 $x_t$ 에 의존하는 함수라는 점이다.17
$\Delta_t = \text{Softplus}(\text{Linear}(x_t)) \\ \bar{A}_t = \exp(\Delta_t A) \\ \bar{B}_t = (\Delta_t A)^{-1} (\exp(\Delta_t A) - I) \cdot \Delta_t B$
이산화된 업데이트 식은 다음과 같다:
$h_t = \bar{A}_t h_{t-1} + \bar{B}_t x_t$

$y_t = C h_t$

여기서 $\bar{A}_t$ 와 $\bar{B}_t$ 는 모두 현재 입력 $x_t$ 의 함수인 $\Delta_t$ 에 의해 결정된다. 이것이 바로 Mamba의 선택성(Selectivity) 이다. 게이트 값 $\Delta_t$ 가 크면 현재 입력 $x_t$ 의 정보를 은닉 상태 $h_t$ 에 많이 반영하고 이전 상태 $h_{t-1}$ 의 영향력을 조절한다. 반대로 $\Delta_t$ 가 작으면 현재 입력을 무시(skip)하고 이전 기억을 보존한다. 이 메커니즘은 단순한 선형 순환식(LTI, Linear Time Invariant)을 시변(Time-Variant) 비선형 시스템으로 변환시킨다.18

0.4.2 Mamba의 ICL을 위한 그래디언트 누적 가설

Sushma et al. (2024)의 연구는 Mamba가 이러한 구조를 활용하여 어떻게 SIM을 학습하는지에 대한 통찰을 제공한다. 그들의 분석에 따르면, Mamba의 은닉 상태 $h_t$ 는 암묵적인 선형 회귀 문제의 그래디언트(Gradient) 를 누적하는 메모리 역할을 수행한다.17

단일 인덱스 모델의 손실 함수 $L(w) = \frac{1}{2} \sum (w^\top x_i - y_i)^2$ 를 최소화하는 과정에서, 그래디언트는 $\nabla L \propto \sum (w^\top x_i - y_i) x_i$ 형태를 띤다. Mamba의 업데이트 식 $h_t = \bar{A}_t h_{t-1} + \bar{B}_t x_t$ 는 적절한 파라미터 설정을 통해 이 그래디언트의 누적합을 $h_t$ 에 저장하는 과정과 수학적으로 동치임이 증명되었다.

상태 $h_t$ : 누적된 그래디언트 정보 ( $\sum y_i x_i$ 등 공분산 통계량)
게이팅 $\Delta_t$ : 각 샘플의 학습률(Learning Rate) 또는 가중치. 입력의 중요도에 따라 그래디언트 반영 비율을 조절.
출력 $y_t$ : 누적된 그래디언트(업데이트된 가중치 $w_{new}$ )를 사용하여 쿼리에 대한 예측 수행.

이러한 해석은 Mamba가 트랜스포머와 달리 전체 문맥을 한 번에 보지 못함에도 불구하고, 순차적인 업데이트만으로도 전역적인 최적해에 근접할 수 있는 이유를 설명한다. Mamba는 일종의 온라인 경사 하강법(Online Gradient Descent) 혹은 미니배치 경사 하강법을 내부적으로 에뮬레이션하고 있는 것이다.20

0.5 비선형 게이팅의 이중 역할: 선택(Selection)과 억제(Suppression)

단일 인덱스 모델 학습의 관점에서 Mamba의 비선형 게이팅은 단순한 ‘연산’ 그 이상의 의미를 갖는다. 이론적 분석과 실험 결과들은 게이팅이 크게 두 가지 핵심적인 역할을 수행함으로써 모델의 성능과 강건성을 보장함을 보여준다: (1) 정보적 예제의 선택과 (2) 아웃라이어의 억제이다.1

0.5.1 정보적 예제의 선택 (Feature Selection via Gating)

SIM 학습의 핵심은 수많은 입력 차원 중에서 레이블 $y$ 와 상관관계가 높은 $\beta$ 방향을 찾아내는 것이다. 모든 문맥 예제가 동일한 정보량을 가지지는 않는다. 어떤 예제는 $\beta$ 방향의 성분이 강하여 학습에 유용하지만, 어떤 예제는 노이즈가 많거나 $\beta$ 와 직교하여 정보가가 낮을 수 있다.

선형 어텐션은 모든 예제에 대해 전역적인 가중치를 적용하는 경향이 있어 이러한 국소적 중요도를 포착하기 어렵다. 반면, Mamba의 게이팅 $\Delta_t(x_t)$ 는 입력 $x_t$ 의 내용에 따라 즉각적으로 반응한다. 연구 결과에 따르면, 학습된 Mamba 모델의 게이트는 $\beta$ 방향과 정렬된(aligned) 입력, 즉 정보량이 풍부한 예제에 대해 더 큰 값을 출력하여 은닉 상태에 강하게 기록되도록 한다.22 이는 마치 사람이 중요한 정보를 들을 때만 주의를 기울이고 나머지는 흘려듣는 것과 유사한 정보 필터링(Information Filtering) 과정이다.

수학적으로 이는 경사 하강법에서의 적응형 학습률(Adaptive Learning Rate) 과 유사하다. 정보가 확실한 샘플에 대해서는 큰 스텝으로 파라미터를 업데이트하고, 불확실한 샘플에 대해서는 보수적으로 업데이트함으로써, Mamba는 적은 수의 문맥 예제로도 $\beta$ 방향을 빠르게 수렴시킬 수 있다. 이것이 바로 Mamba가 $O(d)$ 수준의 낮은 표본 복잡도를 달성하는 비결 중 하나이다.

0.5.2 아웃라이어 억제와 강건성 (Robustness via Suppression)

더욱 결정적인 차이는 아웃라이어(Outliers) 처리에서 드러난다. 실제 데이터나 프롬프트에는 종종 분포를 벗어나는 이상치나 적대적 노이즈(adversarial noise)가 포함될 수 있다. 선형 모델의 치명적인 약점은 이러한 아웃라이어의 영향이 선형적으로 전파된다는 것이다.

선형 트랜스포머에서 하나의 거대한 노이즈 입력 $x_{outlier}$ 는 가중합 연산을 통해 전체 어텐션 결과를 왜곡시킨다. 이를 ’전파된 오차’라고 하며, 일정 비율 이상의 아웃라이어가 존재하면 선형 모델은 붕괴(collapse)한다.

하지만 Mamba의 게이팅 함수는 주로 Sigmoid, Tanh, 또는 Softplus와 같은 포화(saturation) 비선형 함수를 포함한다.
$\text{Gate}(x) = \sigma(W x + b)$
만약 $x$ 가 정상 범위를 벗어난 아웃라이어라면, 학습된 게이팅 메커니즘은 이를 감지하여 게이트 값을 0에 가깝게 닫아버릴 수 있다( $\Delta_t \to 0$ ). 즉, 아웃라이어가 은닉 상태 $h_t$ 를 오염시키는 것을 물리적으로 차단(Block) 하는 것이다.1

이론적 분석에 따르면, Mamba는 선형 트랜스포머가 견딜 수 있는 임계치를 훨씬 초과하는 아웃라이어 비율 하에서도 정확한 예측 성능을 유지한다. 비록 노이즈를 걸러내기 위해 더 많은 훈련 반복(iterations)이 필요할 수는 있지만, 최종적으로 수렴하는 해의 품질과 일반화 성능은 선형 모델보다 월등히 우수하다.1 이는 Mamba가 ‘깨끗한’ 실험실 환경뿐만 아니라, 노이즈가 만연한 현실 세계의 데이터 스트림을 처리하는 데 적합한 아키텍처임을 시사한다.

0.6 커널의 장벽을 넘어서: 테스트 타임 특징 학습과 생성 지수

Mamba가 단일 인덱스 모델 학습에서 보여주는 가장 놀라운 이론적 성취는 커널 체제를 탈피하여 테스트 타임 특징 학습을 구현했다는 점이다. 이를 정량적으로 설명하기 위해 최신 통계 학습 이론인 생성 지수(Generative Exponent) 개념을 도입한다.

0.6.1 특징 학습 vs. 커널 학습

앞서 언급했듯, 커널 방법론(선형 트랜스포머)은 고정된 특징 공간에서 해를 찾는다. 반면, 특징 학습(Feature Learning)은 데이터에 맞춰 특징 공간 자체를 변형한다. Mamba는 비선형 게이팅을 통해 입력 데이터 $x$ 와 레이블 $y$ 의 상호작용을 비선형적으로 변환함으로써, 고정된 커널의 제약을 벗어난다.

연구 결과, Mamba는 프롬프트에 주어진 예제들을 통해 미지의 특징 벡터 $\beta$ 를 자신의 은닉 상태 내에 명시적으로(explicitly) 혹은 암묵적으로(implicitly) 구성해낸다는 것이 밝혀졌다. 이는 모델이 훈련 단계(Pre-training)에서 $\beta$ 를 학습하는 것이 아니라, 추론 단계(Test-time)에서 새로운 $\beta$ 를 찾아낸다는 점에서 테스트 타임 특징 학습으로 명명된다.5

0.6.2 생성 지수(Generative Exponent)와 표본 복잡도의 혁명

SIM 학습의 난이도는 링크 함수 $g_*$ 의 복잡도에 달려 있다. 기존 이론에서 표본 복잡도는 정보 지수(Information Exponent, $k$ ) 에 지배된다( $n \gtrsim d^k$ ). $k$ 가 크면 학습은 사실상 불가능해진다.

그러나 최근 연구들은 Mamba와 같이 특징 학습이 가능한 모델들의 표본 복잡도가 정보 지수가 아닌 생성 지수(Generative Exponent, $k^*$ )에 의해 결정됨을 증명했다.2
$k^* := \min_{T \in L^2} \text{IE}(T \circ g_*)$
생성 지수는 타겟 함수 $g_*$ 에 임의의 $L^2$ 변환 $T$ 를 적용했을 때 얻을 수 있는 최소의 정보 지수를 의미한다. Mamba의 비선형 게이팅은 입력과 출력에 비선형 변환을 가하는 효과가 있으며, 이는 수학적으로 최적의 변환 $T$ 를 찾아 적용하는 것과 유사하다.

예를 들어, 어떤 함수가 대칭적이어서 정보 지수가 높더라도(예: $y=x^2$ , $k=2$ ), 게이팅을 통해 비대칭성을 유도하거나 변환을 가하면 더 낮은 차수의 성질을 갖게 만들어( $k^* < k$ ) 학습을 용이하게 할 수 있다.

이 결과는 실로 혁명적이다. 선형 트랜스포머가 $O(d^k)$ 의 샘플을 요구하며 허덕일 때, Mamba는 비선형 게이팅을 활용하여 이를 $O(d)$ 또는 생성 지수에 비례하는 수준으로 획기적으로 낮춘다. 이는 Mamba가 소프트맥스 어텐션을 사용하는 일반 트랜스포머나 이상적인 비선형 트랜스포머가 달성하는 정보 이론적 최적 속도(Near Information-Theoretically Optimal Rate) 에 근접했음을 의미한다.2

특성	선형 트랜스포머 (Linear Transformer)	Mamba (Selective SSM)	일반 트랜스포머 (Softmax Transformer)
핵심 연산	선형화된 어텐션 ( $KV$ 곱)	비선형 게이팅 ( $\Delta_t$ ) 기반 순환	소프트맥스 어텐션
학습 체제	커널 회귀 (Kernel Regression)	테스트 타임 특징 학습 (Feature Learning)	경사 하강법 / 특징 학습
표본 복잡도	$O(d^k)$ (정보 지수 의존)	*$O(d)$ ~ $O(d^{k^\})$ (생성 지수 의존)**	$O(d)$ (최적에 근접)
아웃라이어 강건성	낮음 (선형 전파로 붕괴)	높음 (게이팅에 의한 차단)	중간~높음
추론 속도	$O(N)$	$O(N)$	$O(N^2)$

표 8.2.1 단일 인덱스 모델 학습 관점에서의 아키텍처별 특성 비교. Mamba는 선형 트랜스포머의 효율성과 일반 트랜스포머의 학습 능력을 동시에 달성한다.

0.7 결론 및 시사점: 포스트 트랜스포머 시대를 향한 제언

본 절의 심층 분석을 통해 우리는 Mamba의 인컨텍스트 러닝 능력이 단순한 우연이나 경험적 최적화의 산물이 아님을 확인했다. 단일 인덱스 모델(SIM)이라는 이론적 렌즈를 통해 들여다본 Mamba는, 비선형 게이팅이라는 강력한 기제를 통해 선형 모델의 한계를 돌파하고 고차원 데이터의 본질적 구조를 학습하는 동적 시스템(Dynamic System) 이었다.

우리가 도출한 주요 결론은 다음과 같다:

비선형성은 선택이 아닌 필수다: 효율적인 시계열 모델링을 위해 선형 복잡도를 추구하더라도, 정보의 가치를 판단하고 선별하기 위한 최소한의 비선형성(게이팅)은 필수불가결하다. Mamba의 성공은 순수 선형 어텐션 모델들이 왜 실패했는지에 대한 명확한 해답을 제공한다.25
게이팅은 최적화 알고리즘이다: Mamba의 게이팅 메커니즘은 단순한 신호 제어 장치가 아니라, 입력 데이터의 중요도에 따라 학습률을 조절하고 노이즈를 필터링하는 정교한 최적화 알고리즘(Optimizer) 의 역할을 수행한다. 이는 Mamba가 ICL 상황에서 경사 하강법을 에뮬레이션할 수 있는 물리적 기반이 된다.20
효율성과 표현력의 딜레마 해결: Mamba는 생성 지수에 기반한 효율적인 표본 복잡도를 달성함으로써, 계산 효율성(Linear Compute)과 통계적 효율성(Optimal Sample Complexity)이 반드시 상충 관계(Trade-off)에 있는 것은 아님을 증명했다. 이는 더 적은 자원으로 더 똑똑하게 학습하는 차세대 AI 모델의 청사진을 제시한다.2

결국 Mamba의 비선형 게이팅과 단일 인덱스 모델 학습 능력에 대한 규명은, 트랜스포머 이후의 아키텍처가 나아가야 할 방향을 가리키고 있다. 그것은 무작정 모델의 크기를 키우거나 문맥을 늘리는 것이 아니라, 데이터의 홍수 속에서 ‘무엇을 기억하고 무엇을 버릴지’ 를 스스로 결정할 수 있는 지능적인 선택 메커니즘을 설계하는 것이다. 2025년 현재, Mamba는 그 가능성을 이론과 실제 양면에서 가장 강력하게 증명하고 있는 모델이다.

1. 참고 자료

Understanding Mamba in In-Context Learning with Outliers: A Theoretical Generalization Analysis - OpenReview, https://openreview.net/pdf?id=DHyGZHBZci
arxiv.org, https://arxiv.org/html/2510.12026v1
Mamaba Can Learn Low-Dimensional Targets In-Context via Test-Time Feature Learning, https://chatpaper.com/paper/199851
[2510.12026] Mamba Can Learn Low-Dimensional Targets In-Context via Test-Time Feature Learning - arXiv, https://arxiv.org/abs/2510.12026
[Literature Review] Mamba Can Learn Low-Dimensional Targets In-Context via Test-Time Feature Learning - Moonlight, https://www.themoonlight.io/en/review/mamba-can-learn-low-dimensional-targets-in-context-via-test-time-feature-learning
On Learning High Dimensional Structured Single Index Models, https://ojs.aaai.org/index.php/AAAI/article/view/10835/10694
Learning Single-Index Models in High Dimensions - Robert Nowak - University of Wisconsin–Madison, https://nowak.ece.wisc.edu/single_index_arxiv.pdf
Mamba Can Learn Low-Dimensional Targets In-Context via Test-Time Feature Learning - arXiv, https://arxiv.org/pdf/2510.12026
Inference In High-dimensional Single-Index Models Under Symmetric Designs - Journal of Machine Learning Research, https://jmlr.csail.mit.edu/papers/volume22/19-744/19-744.pdf
Learning Single-Index Models with Shallow Neural Networks, https://proceedings.neurips.cc/paper_files/paper/2022/file/3fb6c52aeb11e09053c16eabee74dd7b-Paper-Conference.pdf
Mamba Can Learn Low-Dimensional Targets In-Context via Test-Time Feature Learning, https://openreview.net/forum?id=3KPsog4mpy
Fundamental Limits of Learning Single-Index Models under Structured Data - OpenReview, https://openreview.net/pdf?id=17mGBDbqR8
Nonlinear feature learning of neural networks with gradient descent: Information theoretic optimality and in-context learning - CIRM, https://www.cirm-math.fr/RepOrga/3003/Slides/Taiji_Suzuki_Presentation_LOL24.pdf
[Quick Review] Neural network learns low-dimensional polynomials, https://liner.com/review/neural-network-learns-lowdimensional-polynomials-with-sgd-near-the-informationtheoretic
Learning single-index models with neural networks - Denny Wu, https://dennywu1.github.io/single_index_SGD.pdf
Can Mamba Learn In Context with Outliers? A Theoretical …, https://openreview.net/forum?id=tswBfpkwHn
state-space models can learn in-context by - arXiv, https://arxiv.org/abs/2410.11687
HOW MAMBA IN-CONTEXT LEARNS MARKOV CHAINS - OpenReview, https://openreview.net/pdf?id=kmK3WSCOCT
state-space models can learn in-context by - arXiv, https://arxiv.org/pdf/2410.11687?
Trained Mamba Emulates Online Gradient Descent in In-Context Linear Regression, https://neurips.cc/virtual/2025/poster/118683
Taiji Suzuki’s research works | RIKEN and other places - ResearchGate, https://www.researchgate.net/scientific-contributions/Taiji-Suzuki-2106269234
Can Mamba Learn In Context with Outliers? A Theoretical Generalization Analysis - arXiv, https://arxiv.org/html/2510.00399v1
Theoretical Analysis of the Selection Mechanism in Mamba: Training Dynamics and Generalization - What Can(’t) Transformers Do?, https://transformerstheory.github.io/pdf/30_shandirasegaran_et_al.pdf
Computational-Statistical Gaps in Gaussian Single-Index Models - Proceedings of Machine Learning Research, https://proceedings.mlr.press/v247/damian24a/damian24a.pdf
Demystify Mamba in Vision: A Linear Attention Perspective - arXiv, https://arxiv.org/pdf/2405.16605
ReGLA: Refining Gated Linear Attention - arXiv, https://arxiv.org/html/2502.01578v1
State-space models can learn in-context by gradient descent - arXiv, https://arxiv.org/html/2410.11687v1